Cos'è "statistiche di kolo?

Ecco le informazioni sulle statistiche di Kolmogòrov-Smirnov (spesso abbreviate in K-S), presentate in formato Markdown e con link agli argomenti chiave:

Statistiche di Kolmogòrov-Smirnov

La statistica di Kolmogòrov-Smirnov (K-S) è un test non parametrico utilizzato per:

  • Verificare se un campione di dati proviene da una specifica distribuzione (test di bontà di adattamento). Questo implica confrontare la <a href="https://it.wikiwhat.page/kavramlar/funzione%20di%20distribuzione%20cumulativa" title="Funzione di Distribuzione Cumulativa">funzione di distribuzione cumulativa (CDF)</a> empirica dei dati con la CDF teorica della distribuzione ipotizzata.

  • Confrontare due campioni per determinare se provengono dalla stessa distribuzione. In questo caso, confronta le CDF empiriche dei due campioni.

Come funziona:

La statistica K-S quantifica la distanza massima tra le due CDF confrontate. Più grande è la distanza, più forte è l'evidenza che i campioni non provengono dalla stessa distribuzione (o che il campione non proviene dalla distribuzione teorica specificata).

Calcolo:

La statistica K-S, spesso denotata come D, è definita come:

  • Test a un campione: D = max |F<sub>n</sub>(x) - F(x)|, dove F<sub>n</sub>(x) è la CDF empirica del campione e F(x) è la CDF teorica.

  • Test a due campioni: D = max |F<sub>n,1</sub>(x) - F<sub>n,2</sub>(x)|, dove F<sub>n,1</sub>(x) e F<sub>n,2</sub>(x) sono le CDF empiriche dei due campioni.

Il "max" si riferisce alla differenza assoluta massima tra le due funzioni, calcolata su tutti i possibili valori di x.

Interpretazione:

Il valore di D viene quindi confrontato con una distribuzione di riferimento (la distribuzione di Kolmogòrov) per calcolare un <a href="https://it.wikiwhat.page/kavramlar/p-value" title="P-value">p-value</a>. Un p-value basso (tipicamente inferiore a 0.05) indica che c'è una significativa differenza tra le distribuzioni, e si rifiuta l'ipotesi nulla (che i dati provengono dalla distribuzione specificata, o che i due campioni provengono dalla stessa distribuzione).

Vantaggi:

  • Non parametrico: non richiede assunzioni sulla distribuzione dei dati.
  • Applicabile a dati continui.
  • Relativamente semplice da calcolare.

Svantaggi:

  • Meno potente di altri test (come il test t o l'ANOVA) se si conoscono le distribuzioni dei dati.
  • Più sensibile alle differenze vicino al centro della distribuzione che alle code.

In sintesi:

La statistica K-S è uno strumento utile per testare l'adattamento a una distribuzione e per confrontare due distribuzioni senza fare assunzioni sulla loro forma. La <a href="https://it.wikiwhat.page/kavramlar/dimensione%20del%20campione" title="Dimensione del Campione">dimensione del campione</a> può influenzare la potenza del test K-S.